Indexation libre et contrôlée d'articles scientifiques. Présentation et résultats du défi fouille de textes DEFT2012 (Controlled and free indexing of scientific papers. Presentation and results of the DEFT2012 text-mining challenge) [in French]
نویسندگان
چکیده
Controlled and free indexing of scientific papers Presentation and results of the DEFT2012 text-mining challenge In this paper, we present the 2012 edition of the DEFT text-mining challenge. This edition addresses the automatic, keyword-based indexing of scientific papers through two tracks. The first gives to the participants the terminology of keywords used to index the documents, while the second does not provide this terminology. The corpus is composed of scientific papers published in humanities journals, indexed by their authors. This indexing is used as a reference for the evaluation. The results have been evaluated in terms of micro-measures on the recall, precision and F-measure computed after keyword lemmatization. In the track giving the terminology of used keywords, the mean F-measure is 0.3575, the median is 0.3321 and the standard deviation is 0.2985 ; in the second track, the mean F-measure is 0.2055, the median is 0.1901 and the standard deviation is 0.1516. MOTS-CLÉS : Campagne d’évaluation, fouille de textes, indexation libre, indexation contrôlée, mots-clés, thésaurus.
منابع مشابه
Participation du LINA à DEFT2012 (LINA at DEFT2012) [in French]
LINA at DEFT 2012 This article presents the participation of the TALN group at LINA to the défi fouille de textes (DEFT) 2012. Developed specifically for the second task, our system combines the outputs of three different keyword extraction methods. Our system ranked 2nd out of 9 systems with a f-measure of 21,3%. MOTS-CLÉS : extraction de mots clés, deft 2012, combinaison de méthodes.
متن کاملDétection de mots-clés par approches au grain caractère et au grain mot (Keywords extraction by repeated string analysis) [in French]
RÉSUMÉ Nous présentons dans cet article les méthodes utilisées par l’équipe HULTECH pour sa participation au Défi Fouille de Textes 2012 (Deft 2012). La tâche de cette édition du défi consiste à retrouver dans des articles scientifiques, les mots-clés choisis par les auteurs. Nous nous appuyons sur la détection de chaînes répétées maximales (rst rmax), au grain caractère et au grain mot. La mét...
متن کاملAcquisition terminologique pour identifier les mots-clés d'articles scientifiques (Terminological acquisition for identifying keywords of scientific articles) [in French]
Terminological acquisition for identifying keywords of scientific articles The challenge DEFT2012 aims at automatically identifying the keywords chosen by the authors of scientific articles in the Humanities. A keyword list is provided within the track 1. We propose to exploit terminological acquisition approaches. The extracted terms are also sorted and filtered according to their position in ...
متن کاملMatching Texts with SUMMA
Résumé. On décrit notre approche au problème de l’appariement de résumés/articles scientifiques proposé par le programme DÉfi Fouille de Textes (DEFT). Nous avons développé un algorithme d’appariement de textes qui utilise des ressources quasiment indépendantes de la langue. L’algorithme crée des representations de documents tout en utilisant le système SUMMA et les compare grâce à une mesure d...
متن کاملParticipation de l'IRISA à DeFT2012 : recherche d'information et apprentissage pour la génération de mots-clés (IRISA participation to DeFT2012: information retrieval and machine-learning for keyword generation) [in French]
IRISA participation to DeFT 2012 : information retrieval and machine learning for keyword generation This paper describes the IRISA participation to the DeFT 2012 text-mining challenge. It consisted in the automatic attribution or generation of keywords to scientific journal articles. Two tasks were proposed which led us to test two different strategies. For the first task, a list of keywords w...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2012